SparkStreaming消费kafka中数据的方式有哪些?他们有什么区别? 您所在的位置:网站首页 kafka 消费间隔 SparkStreaming消费kafka中数据的方式有哪些?他们有什么区别?

SparkStreaming消费kafka中数据的方式有哪些?他们有什么区别?

2023-07-03 04:48| 来源: 网络整理| 查看: 265

前置知识点:

discretized Stream 是ss里面最基础的一个抽象,代表着一个以时间为键的RDD序列。将时间作为键,RDD作为值的一个hash表,反映着持续性的数据流和经过各种spark原语操作而得出的结果数据流。

1.receiver接收器方式  使用kafka里面的一个高级API,将生产的数据放在receiver里面包装成DS进行处理,而receiver不断接受数据存放在executor内存里面,所有数据存放在spark中executor内存,但失败的情况下回丢失数据,为了容错,可以考虑启用WAL日志(存储在HDFS上),缺点是WAL日志相当于复制了一份数据,kafka本身也有备份机制,故数据冗余。

2.direct 方式 绕过 receiver接收器 周期性查询kafka,根据kafka里面partition和topic的最新offset,当job启动时, 直接读取一定范围的数据并将数据包装成DS给到SS处理,即ss不存放数据,而是在处理过程中直接使用

区别:

1.receiver方式依赖zookeeper记录偏移量,那么与SS的偏移量记录可能会存在不一致的情况,且WAL日志相当于复制了一份数据,kafka本身也有备份机制,故数据冗余。

2.

direct的优点

(1)简化并行

receiver方式会创建多个kafka输入流,而direct方式实现了 spark分区和kafka分区一一对应,从kafka并行读取数据,便于理解。

(2)高效

省去WAL复制数据。

(3)exactly once semantic

direct方式是直接在SS中记录checkpoint



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有